查看原文
其他

Python可以做哪些好玩的事 之 自动刷票

2017-09-18 _知几 Python爱好者社区

作者:_知几

简书主页:http://www.jianshu.com/u/9dad6621d2a0


目标网站:http://best.zhaopin.com/?sid=121128100&site=sou

1.分析

先手动投票查看网页提交的请求




点击投票网页提交的请求




投票成功返回的json数据,可以看到是result:1




为公司投票时提交的参数




点击'为我点赞'网页提交的请求



点赞时提交的参数

通过分析可以看到网页实际上并没有针对同一IP的投票进行限制,所以不需要进行使用代理IP,但是为了使我们的代码更加符合常规网站的对同一IP限制投票的机制,所以这里抓取一个代理IP的网站进行点击投票


提供不错几个的短期代理IP网站


西刺免费代理IP

快代理免费代理

Proxy360代理

全网代理IP


但是,这些免费开放代理一般会有很多人都在使用,而且代理有寿命短,速度慢,匿名度不高,HTTP/HTTPS支持不稳定等缺点(免费没好货)。

目标网址:西刺免费代理IP




查看网页结构每一个代理IP和端口都在一个<td></td>标签中,我们可以通过正则筛选出我们想要的结果

2.小试牛刀(代码基于Python 2.7)


#-*- coding:utf-8 -*- import requests import json import re import random import sys import time import datetime  #处理日期和时间的标准库 import threading  #引入多线程 from random import choice  #choice() 方法返回一个列表,元组或字符串的随机项 from bs4 import BeautifulSoup def get_ip():    '''获取代理IP'''    url = 'http://www.xicidaili.com/nn'    my_headers = {        'Accept': 'text/html, application/xhtml+xml, application/xml;',        'Accept-Encoding': 'gzip, deflate, sdch',        'Accept-Language': 'zh-CN,zh;q=0.8',        'Referer': 'http: // www.xicidaili.com/nn',        'User-Agent': 'Mozilla / 5.0(Windows NT 6.1;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 45.0.2454.101Safari / 537.36'    }    r = requests.get(url,headers=my_headers)    soup = BeautifulSoup(r.text,'html.parser')    data = soup.find_all('td')    #定义IP和端口Pattern规则    ip_compile = re.compile(r'<td>(\d+\.\d+\.\d+\.\d+)</td>')  #匹配IP    port_compile = re.compile(r'<td>(\d+)</td>')  #匹配端口    ip = re.findall(ip_compile,str(data))    #获取所有IP    port = re.findall(port_compile,str(data))  #获取所有端口    z = [':'.join(i) for i in zip(ip,port)]  #列表生成式    print z    #组合IP和端口    return z # 设置user-agent列表,每次请求时,随机挑选一个user-agent ua_list = [        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60",        "Opera/8.0 (Windows NT 5.1; U; en)",        "Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50",        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50",        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0",        "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 ",        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",        "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16",        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36",        "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0",        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)",    ] def get_url(url,code=0,ips=[]):    '''    投票    如果因为代理IP已失效造成投票失败,则会自动换一个代理IP后继续投票    :param code:    :param ips:    :return:    '''    try:        ip = choice(ips)    except:        return False    else:        #指定代理IP        proxies = {            'http':ip        }        headers = {            'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',            'Host': 'best.zhaopin.com',            'Origin': 'https: // best.zhaopin.com',            'Referer':'https//best.zhaopin.com/?sid=121128100&site=sou',            'User-Agent':choice(ua_list)        }    try:        data = {"bestid": "公司ID", "score": "5,5,5,5,5,5","source": "best",}        result = requests.post(url=url, data=data, proxies=proxies)  # 跳过证书的验证 verify=False    except requests.exceptions.ConnectionError:        print 'ConnectionError'        if not ips:            print 'ip 已失效'            sys.exit()        #删除不可用的代理IP        if ip in ips:            ips.remove(ip)        #重新请求url        get_url(url,code=0,ips=[])    else:        date = datetime.datetime.now().strftime('%H:%M:%S')        # result.text() 投票成功显示1  失败显示0        print u"第%s次 [%s] [%s]:投票%s (剩余可用代理IP数:%s)" % (code, date, ip, result.text, len(ips)) def get_num(num):    #点赞的请求    url1 = 'https://best.zhaopin.com/API/Vote.ashx'    #投票的请求    url2 = 'https://best.zhaopin.com/API/ScoreCompany.ashx'    if num == 1:        url=url1        main(url)    elif num == 2:        url =url2        main(url)    else:        print '您的输入有误,请重新输入!!!'        num = int(raw_input('自主刷赞请选1,自动投票请选2:'))        get_num(num) def main(url):    ips = []    #xrange() 生成的是一个生成器    for i in xrange(6000):        # 每隔1000次重新获取一次最新的代理IP,每次可获取最新的100个代理IP        if i % 1000 == 0:            ips.extend(get_ip())            print '--------------------------------------'            print ips        #启动线程,每隔1s产生一个线程,可通过控制时间加快投票速度        t1 = threading.Thread(target=get_url,args=(url,i,ips))        t1.start()        time.sleep(1)  #time.sleep的最小单位是毫秒 if __name__ == '__main__':    print '欢迎使用自助刷票小工具QAQ'    num = int(raw_input('自主刷赞请选1,自动投票请选2:'))    get_num(num)

运行程序




开启程序,可以看到每次投票的IP已不再是我们本机IP


福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复“课程”即可获取:

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。


Python爱好者社区


为大家提供与Python相关的最新技术和资讯。

长按指纹 > 识别图中二维码 > 添加关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存